运维监控
功能概述
ZStack Cloud云平台主要以ZWatch组件提供运维监控功能,其包含如下功能:
- 时序化监控:如资源负载数据、资源容量数据,并可自定义时序化数据。
- 事件收集:收集系统中发生的预定义事件,例如物理机失联,虚拟机高可用功能启动等。
报警功能:对时序化数据或事件进行通知,用户可自定义报警消息模板。
时序化数据(time series data)指以固定时间间隔采集的数据,每个数据都有一个timestamp字段与之关联。
审计功能:记录所有API操作,并提供搜索功能。
最佳实践
- 设置合理报警条件。
- 针对核心资源单独设置报警条目,例如针对存储容量使用设置超过65%提示告警。
- 合理使用钉钉、邮箱、短信、http接收端,日常运维,建议设置邮箱报警或钉钉报警,实时报告异常信息。
- 合理规划全局设置。
- 设置监控数据采集时间间隔,建议设置20秒。
- 设置监控数据保留时间,建议全局设置监控数据保留周期设置为1个月。
注意事项
- 定期检查云平台。
- 定期检查报警邮件、短信等信息。
- 定期检查服务是否异常。